第8章 固有表現抽出
https://github.com/stockmarkteam/bert-book/blob/master/Chapter8.ipynb
Wikipediaを用いた日本語の固有表現抽出データセットを使用
ner.jsonを読み込み、シャッフルしてからtrain/val/testに分割(6:2:2)
create_dataset
データセットをデータローダに入力できる形に整形。
ner.jsonの要素のオブジェクト1つ1つについてtokenizer.encode_plus_taggedを呼び出す
BIO(リスト8-21)
encode_plus_tagged
データセット作成に使う
tokenizer.tokenizeを呼び出す
処理
固有表現の前後でtextを分割
encode_plus_untagged
性能評価に使う
以下の2つを呼び出している
tokenizer.word_tokenizer.tokenize
tokenizer.subword_tokenizer.tokenize